Skip to content

第3章 信度

标签
学习/心理学
字数
7607 字
阅读时间
29 分钟

学习目标

  1. 掌握信度的定义及内涵。
  2. 理解并掌握提高信度的方法。
  3. 掌握信度系数的假设、适用条件及影响因素。
  4. 掌握各种信度的计算方法。

信度概述

  • 信度是指测量结果的稳定性程度。
  • 用同一个测量工具反复测量某人的同一种心理特质,多次测量结果间的一致性程度叫信度,有时也叫做信度系数 (reliability coefficient)测量的可靠性
  • 信度受随机误差的影响,随机误差越大,信度越低。
  • 大部分的信度指标都以相关系数表示,即用同一被试样本所得的两组资料的相关系数作为测量一致性的指标,称作信度系数 (rxx)
  • 信度一般在 0 和 1 之间取值,rxx越接近 1,信度越高。

信度的数学定义

定义 1:信度是一个被测团体真分数的方差与实得分数的方差之比。

rxx=ST2SX2=1SE2SX2(0rxx1)

rxx 表示测量的信度,ST2 代表真分数方差,Sx2 代表实得分数方差,SE2 代表误差分数方差。

定义 2:信度是被试团体真分数与实得分数相关系数的平方。

rxx=ρTx2

定义 3:信度是一个测验 X(A 卷)与它的任意一个平行测验(B 卷)的相关系数。

rxx=ρxx

上述定义 1 和定义 2 只有理论意义,只有定义 3 具有实际意义。

信度的作用

  1. 信度是测量过程中所存在的随机误差大小的反映。
    • 信度系数可以解释为测验分数的总方差中有多少比例是真分数方差,也就是测验的总变异中真分数造成的变异占百分之几。它直接告诉我们测量的误差有多大。
  2. 信度可以用来解释个人测验分数的意义。
    • 由于误差的存在,一个人通过测量得到的分数很难等于真分数。
    • 理论上,我们可以对一个人施测无数次,然后计算所得分数的平均数和标准差。在这个假设的分布里,平均数就是这个人的真分数,标准差则为误差大小的指标。
    • 在实际工作中,我们用人数足够多的一组被试两次施测的结果来代替对同一个人的反复施测,以估计测量误差的变异数。此时,个人在两次测验中的分数差异就是测量误差。 据此可制成误差分数的分布。误差分布的标准差称为测量的标准误,是表示测量误差的大小的指标,其计算公式为:
    SE=Sx1rxx
    • 式中 SE 表示测量的标准误,即误差分布的标准差;Sx 为实得分数的标准差;rxx 表示信度系数。
    • 当测验满足经典测量理论的三大假设时,根据以上的测量标准误,可以使用下述公式构建测验真分数估计的置信区间 (Confidence Intervals for True Scores, CI)
    xZcSETx+ZcSE
    • 式中,x 是被试的观察分数,SE 表示测量的标准误,Zc 是对应某个统计检验显著性水平的标准正态分布下的临界值(α=0.05 对应 Zc=1.96α=0.01 对应 Zc=2.58)。
  3. 信度有助于不同测验分数的比较
    • 来自不同测验的原始分数是无法直接进行比较的,只有将它们转换成相同尺度的标准分数才能进行比较。可采用“差异的标准误”来进行差异的显著性检验。
    SEd=S2rxxryy
    • 式中,S 为相同尺度(如 T 分数的 S=10)的标准分数的标准差,rxxryy 分别是两个测验的信度系数。

使用信度系数的注意点

  • 在不同情况下,对不同样本,采用不同方法会得到不同的信度系数,因此一个测验可能不止一个信度系数。
  • 信度系数只是对测量分数不一致程度的估计,并没有指出不一致的原因。
  • 获得高信度系数并不是心理测量追求的最终目的,它只是迈向目标的一步,是使测验有效的一个必要条件。

信度系数的标准

  • 一般而言,信度在 0.70-0.80 的范围内,可以满足基础研究中的多数目的。
  • 标准化能力与学绩测验的信度系数在 0.90 以上。
  • 人格测验的信度系数应在 0.80 以上。
  • 教师自编测验的信度应在 0.60 以上。

信度的估计方法

由于造成测量的随机误差的方式或来源多种多样,因此信度的估计方法也多种多样。

信度类型要说明的问题取样
重测信度第一次测验与第二次测验是否一致?时间取样
复本信度不同的复本在同时或不同时间测验时是否一致?内容及时间取样
分半信度测验分为两半时是否一致?内容取样
同质性信度测验的内部各个项目之间是否一致?内容取样
评分者信度不同评分者之间的评分一致性如何?评分者取样
分层 α 系数包含不同计分方式或多个子维度测验的信度内容取样
成套测验合成分数信度包含不同分测验总分的合成分数的信度内容取样

重测信度

  • 重测信度指同一个量表对同一组被试施测两次所得结果的一致性程度。
  • 重测信度表示两次测验结果有无变动,反映测验分数的稳定程度,故又称稳定性系数。
  • 重测信度大小等于同一组被试在两次测验上所得分数的相关系数,一般采用皮尔逊积差相关公式来计算。

重测信度计算公式(皮尔逊积差相关公式):

rxx=(xx)(yy)(xx)2(yy)2

式中,xx 是第一次测量的实得分数及实得分数的平均值,yy 是第二次测量的实得分数及实得分数的平均值,rxx 是重测信度。

组内相关系数 (intraclass correlation coefficient, ICC)

计算公式:

ICC=MSbMSwMSb+(k1)MSw

式中 MSb 是个体之间的变异,MSw 是个体内部的变异,k 是测量次数。

近乎完美可观中等一般
0.8<ICC<1.00.6<ICC0.80.4<ICC0.60.2<ICC0.40<ICC0.2

计算重测信度的假设

  • 所测量的特性必须是稳定的
  • 遗忘与练习的效果相同
  • 两次施测期间被试的学习效果没有差别

重测信度的优缺点

  • 优点:能提供有关测验结果是否随时间而变异的资料,可作为预测受测者将来行为的依据。
  • 缺点:容易受练习和记忆的影响,前后两次施测间隔的长短必须适度;受测者第一次测验所发现的错误可能导致其第二次测验的变化而增加误差变异。

复本信度

  • 复本信度 (alternate-form reliability) 指两个平行测验测量同一批被试所得结果的一致性程度,其大小等于同一批被试在两个复本测验上所得分数的皮尔逊积差相关系数。
    • 如果两个复本测验是同时连续施测的,则称这种复本信度为等值性系数。
    • 如果两个复本是相距一段时间分两次施测的,则称这种复本信度为稳定性与等值性系数。
  • 实施时,可以一半被试先做 A 卷后做 B 卷,另一半被试先做 B 卷后做 A 卷。

复本测验使用的前提条件

  • 构造出两份或两份以上真正平行的测验(即 A、B 卷)。复本测验之间必须在题目内容、数量、形式、难度、区分度、指导语、时限以及所用的例题、公式和测验等其他方面都相同或相似。
  • 被试要有条件接受两个测验,包括时间、经费等。

复本信度的优缺点

  • 优点:
    • 可避免重测带来的记忆效应和练习效应
    • 减少了作弊的可能性
  • 缺点:
    • 能减少但不能完全消除练习和记忆的影响
    • 由于第二个测验只改变了题目的具体内容,已经掌握的解题原则,可以很容易地迁移到同类问题
    • 对许多测验来说,建立复本是十分困难的

分半信度

  • 分半信度 (split-half reliability) 是指将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。
  • 在测验无复本且只能施测一次的情况下,通常用分半法估计信度,即将测题分成对等的两半,由于考察的是两半题目间的一致性,因此也被称为内部一致性系数。
  • 用分半法求信度系数,实际上相当于把整个测验长度减小一半,求得的相关仅是半个测验分数的相关,求出的信度必然低于整个测验的信度。因此,要用斯皮尔曼-布朗公式予以校正。

斯皮尔曼-布朗公式

rxx=2rhh1+rhh

式中,rhh 为两半测验分数间的相关系数,rxx 为整个测验的信度值。

斯皮尔曼-布朗公式的前提假设:两半测验分数的变异性相等,即平均数、标准差、难度、区分度、分布形态以及内容都相同,但实际资料未必符合此假设。

当两半测验不等值时,即上述假设不满足时,可采用下面两公式之一进行校正:

弗朗那根 (Flanagan) 公式

rxx=2(1Sa2+Sb2Sx2)

式中,Sa2Sb2 分别表示所有被试在两半测验上得分的方差,Sx2 表示所有被试在测验总分的方差,rxx 为信度值。

卢仑 (Rulon) 公式

rxx=1Sd2Sx2

式中,Sd2 表示同一组被试在两半测验上得分之差的方差,Sx2表示所有被试在测验总分的方差,rxx为信度值。

同质性信度

  • 同质性信度 (homogeneity reliability) 也叫内部一致性系数,是指测验内部所有题目间的一致性程度。
    • 所有题目测的是同一种心理特质
    • 所有题目得分之间都具有较高的正相关
  • 同质性信度是一个测验所测内容或特质的相同程度
  • 一些表面上看起来是测量同一种心理特质的题目,如果题目间不具有较高正相关,则不能认为它们具有同质性
  • 同质性信度和分半信度同属于内部一致性信度

同质性信度的估计方法

库德-理查逊 (Kuder-Richardson) 信度系数(仅适用于 0、1 记分的测验),又称 KR20 公式:

rxx=KK1(1piqiSx2)

式中,rxx 是信度系数,K 是题目数,pi 是答对第 i 题的人数比例,qi 是答错第 i 题的人数的比例,Sx2 为测验总分的方差。

KR21 公式: 适用于 0、1 记分的测验,当测验项目难度接近时可以采用库德-理查逊提出的简便公式,称为 KR21 公式。

rxx=KK1(1KpqSx2)

式中,rxx 是信度系数,K 表示构成测验的题目数,pq 表示题目的平均通过率和平均失败率,Sx2 为测验总分的方差。

克隆巴赫 α 系数(不要求采用0、1记分):

α=KK1(1Si2Sx2)

式中,α 为信度系数,K 为题目数,Si2 表示所有被试在第 i 题上的方差,Sx2 为测验总分方差。

荷伊特信度: 1941 年,荷伊特 (Hoyt) 提出用方差分量比描述测验内部一致性的方法。设有 n 名被试参加一个由 K 个项目构成的测试,测验分数的总变异可分解为被试间变异 SS,项目间变异 SS 和人与试题交互作用 SS× 三部分。荷伊特认为可以用 MS 作为被试方差估计值,用 MS× 作为误差方差估计值,可以用下述公式作为测验信度的估计值:

rxx=1MS×MS

评分者信度

  • 评分者信度是指多个评分者给同一批人的答卷进行评分的一致性程度

  • 作文测验、学科考试、投射测验、品德测验、创造力测验等评分时存在评分者一致性问题

  • 当评分者人数为两个时,评分者信度等于两个评分者给同一批被试的答卷所评分数的相关系数(积差相关或等级相关)

  • 当评分者人数多于两个时,评分者信度可用肯德尔和谐系数进行估计。

  • 评分者信度在一定程度上是评分质量的反映

  • 一般要求受过训练的评分者之间一致性达到 0.90 以上,才认为评分是客观的

  • 若某一测验的评分者信度较高,则说明评分质量能得到较充分的保障;若某一测验的评分者信度低,则说明评分者之间的评分有较大差异,一致性低,需要分析原因,及时弥补误差

评分者信度的计算

斯皮尔曼等级相关公式

若只有两人对 N 份试卷评分,或一人先后两次评 N 份试卷,可用斯皮尔曼等级相关公式计算:

rR=16D2N(N21)

式中 rR 为等级相关系数,D 为两位评分者对同一试卷所评等级之差,N 为被评的试卷数。

肯德尔和谐系数

如果评分者人数为三人及以上,可以采用肯德尔和谐系数计算评分者信度。其公式为:

w=12[Ri2(Ri)2N]K2(N3N)

式中 K 是评分者人数,N 是被评的对象数(通常是被试数或考生数,每人一份试卷),Ri 是第 i 个被评对象(试卷)被评的水平等级之和。

当出现相同等级时,公式改为:

w=12[Ri2(Ri)2N]K2(N3N)K(n3n)12

式中 n 为相同等级的个数,K 是评分者人数,N 是被评的对象数(通常是被试数或考生数,每人一份试卷),Ri 是第 i 个被评对象(试卷)被评的水平等级之和。

肯德尔和谐系数的统计检验

检验 w 值是否达到显著水平,检验时有两种情形:

  • 被评人数在 3-7 之间,查肯德尔和谐系数表,当实际计算的 w 值大于表中的相应值时,说明评分者的一致性程度高。
  • 被评对象多于 7 个时,可计算 χ2 ,开展 χ2 检验:
χ2=K(N1)w, df=N1

式中 K 是评分者人数,N 是被评的对象数(通常是被试数或考生数,每人一份试卷)。

分层α系数

分层 α 系数是指对包含多种计分方式,或者涉及多种测评维度试卷的测评信度。

估计方法是计算分层 α 系数 (αstrat)(注:stratify,分层):

αstrat=1σxi2(1ρxixi)σx2

式中 αstrat 是测验 X 的分层信度系数,σx2 是整个测验 X 所有题目原始分之和的方差,ρxixi 是测验某个层级 i(同一种计分方式或同一个维度)所有题目的测量信度(如克隆巴赫 α 信度),σxi2 是层级(或题型)i 所有题目原始分之和的方差。

成套测验合成分数的信度

成套测验合成分数信度是指对包含多个分测验的合成分数的测评信度。

估计方法如下:

ρzz=1wi2σxi2(1ρxixi)wi2σxi2+ikj(i)=1kwiwjρxixjσxiσxj

式中,ρzz 是成套测验信度估计;k 指有 k 个分测验;wi 指每个分测验的题目数量在总题目数量中的比重;σxi2 指分测验 i 总分的方差;ρxixi 指分测验 xi 的测量信度;ρxixj 指两个不同分测验之间的相关系数;σxiσxj 指两个不同分测验的标准差之积。

信度的特殊问题

  1. 速度测验的信度问题
    • 因为速度测验的题目难度都很低,所以不能用奇偶分半求分半信度
    • 按时间分半的信度,即一个测验分为两半,在不同时间施测,因为题目可能没有做完,所以分半信度和同质性信度不适用
    • 可以用重测信度和复本信度
  2. 标准参照测验的信度问题
    • 总体越同质,相关系数越低
    • 可用复本,通过人数的百分比差别越小,信度越高
  3. 分测验的信度
    • 除整个测验的信度外,各个分测验也应计算信度,否则,从分测验得分来做推论就会出问题
  4. 对性别敏感的测验,应分别计算信度

影响信度的因素

  1. 被试
    • 单个被试:各种生理心理因素的影响
    • 被试团体:团体内部水平的离散程度及团体平均水平
  2. 主试
    • 不按照指导手册的规定施测
    • 故意制造紧张气氛,给考生暗示、协助等
    • 评分标准掌握不一,前紧后松,随心所欲
  3. 施测情境
    • 测试场所是否安静,光线和温度是否适宜
    • 桌面高低、空间宽窄
    • 测量平台(如电脑流畅性)的质量和稳定性等
  4. 测量工具
    • 测验项目的代表性:试题取样不当、题目太少、考察不全面
    • 测验题目的长度:
      • 测验信度与测验长度的关系(斯皮尔曼-布朗通用公式)
      rkk=krxx1+(k1)rxx
      • 式中,rkk 为测验长度是原来的 k 倍时的信度估计,k 为改变后的长度与原来长度之比,rxx 为原测验的信度。

提高信度的方法

本章小结

  • 信度又叫可靠性,指测量的一致性程度。一个好的测验必须稳定可靠,即多次测量结果要保持一致。
  • 在测量理论中,信度被定义为:一组测验分数的真分数变异与总变异(实得分数变异)的比率。
  • 大部分的信度指标都以相关系数表示,即用同一被试样本所得的两组资料的相关作为测量一致性的指标。
  • 信度是理论上构想的概念,在实际应用时,通常以同一样本所得的两组资料的相关,作为测量一致性的指标。因为测验分数的误差来源不同,估计信度的方法也不同。
  • 信度与误差变异之间有密切的关系。误差变异越大,信度越低。
  • 被试样本、测验长度、测验难度及间隔时间都会影响信度的估计。

扩展阅读

  1. 张厚粲,王晓平.瑞文标准推理测验在我国的修订.心理学报,1989(02):113-121.
  2. 龚耀先,蔡太生.中国修订韦氏儿童智力量表.中国临床心理学杂志,1994(01):1-6+63.
  3. 龚耀先,蔡太生,周世杰等.韦氏儿童智力量表在中国的修订及应用.医学研究通讯, 1999(02):14-15.
  4. 杨志明.多题型试卷和多学科合成分数的信度估计.教育测量与评价, 2017(04):5-9+15.

课后练习

补充知识

心理学研究的可重复性

  • 可重复性 (Reproducibility):指使用相同的数据和相同的分析策略测试先前发现的可靠性。
  • 稳健性/鲁棒性 (Robustness):指使用相同的数据和不同的分析策略测试先前发现的可靠性。
  • 可复制性 (Replicability):指使用不同的数据测试先前发现的可靠性。

心理学研究可重复危机的改善办法

影响可复制性的三个因素

  1. 理论成熟度
    • 一个成熟的理论预测的现象,可能会产生较高的先验概率,而由尚未经过测试的新理论预测的现象可能会产生较低的先验概率。
  2. 原始研究的特征
    • 假阳性:先验概率较低的假设,假阳性率高
    • 弱统计证据的研究难复制
    • 样本量较小且倾向于报告阳性结果的文献,可能高估 (Gelman and Carlin, 2014)
    • 报告的透明度低的发现可能难以复制,因为很难理解原始研究中做了什么
    • 错误假设
    • 进行多个研究,只报告统计显著的部分
    • 选择性报告结果、p 值操纵或其他利用随机机会放大效应大小、获得统计意义或指定过度拟合模型的研究,难以复制
  3. 复制研究的特征
    • 样本量小、设计控制不佳,以及其他降低统计力和增加不确定性的因素 (Maxwell et al., 2015)
    • 不完整的报告会扭曲证据:如果复制结果受到反向出版偏见的影响,即报告阴性结果的可能性比报告阳性结果的可能性更大 (Ioannidis & Trikalinos, 2005),则假阴性的可能性会加剧
    • 复制尝试可能会因研究人员的错误或疏忽而失败
    • Gilbert 等 (2016) 和 Wilson 等 (2020) 认为,很大一部分复制失败是由于复制力度不足造成的

提高可复制性的方法

  • 增加观察次数,使用更强有力的措施和操作,并通过有效性检查、预实验和其他有效性增强来改进设计 (Smith and Little 2018; Vazire et al., 2020)
  • 设置更严格的推理标准来减少错误 (Benjamin et al., 2018)
  • 防止 p-hacking、在结果已知后进行假设
  • 进行稳健性检验、交叉验证和内部复制来认真对待替代解释
  • 最大限度地提高研究过程的透明度来促进评估,包括共享方法、材料、程序和数据
  • 报告分析中的任何数据依赖性 (Lakens, 2019)
  • 明确任何可能影响他人对研究的评估或复制的隐藏知识,例如利益冲突
  • 注册报告提供了一种结构化解决方案,用于选择好的研究问题、使用适当严格的方法和程序、预先注册计划的分析以及透明地展示工作以供他人提供批评

提高可复制性的文化、社会和个人挑战

  1. 社会和结构背景
    • 学术研究发生在一个复杂的政策、规范和激励体系中,这些体系决定了哪些研究获得资助、哪些研究得到发表以及哪些研究人员获得工作和晋升
    • 研究人员可能重视提高可复制性的行为,并且知道如何执行这些行为,但他们可能仍然不会这样做,因为这些行为不会得到奖励,甚至会损害一个人的职业发展
    • 积极、新颖、整洁的结果比消极、重复或混乱的结果更有可能被发表 (Giner-Sorolla, 2012; Romero, 2017)
    • 研究人员对他们报告的研究和分析有很大的自由裁量权,他们有动机和机会有意或无意地参与提高可出版性的行为,但代价是可信度
    • 对结构、定义和理论缺乏共识的研究领域,影响尤其严重(Leising et al., 2020)
    • 由于激励措施鼓励创新,研究人员避免使用他人开发的结构和理论符合其自身利益,正如格言“心理学家对待理论就像对待牙刷一样——没有一个有自尊心的人愿意使用别人的牙刷”(Mischel, 2008) 所表明的那样
    • 面对进行枯燥但可复制的研究的研究人员和进行令人兴奋但不可复制的研究的研究人员之间做出选择时,评审人员始终强烈支持前者 (Ebersole et al., 2016)
  2. 个人背景
    • 科研人员可能存在多种推理偏差,这些偏差可能干扰对真理的追求
    • 确认偏差:研究者可能有选择性地关注或创造与其现有立场一致的条件 (Nickerson, 1998)
    • 后见之明偏差:研究者可能在观察到复制设计的结果后修订他们对结果的理论预测(Christensen-Szalanski and Willham, 1991)
    • 结果偏差:研究者可能根据复制设计的结果是否与他们期望的结果一致或不一致来评估其质量(Baron & Hershey, 1988; Nosek and Errington, 2020)
  3. 不断变化的研究文化 研究人员已经积累了大量关于可复制性和可信度以及如何改进它们的证据基础。
    • 策略
      • 文化变革运动由许多利益相关者组成,他们独立决定是否以及如何改变他们的政策和实践以提高可复制性
      • 一些组织,如心理科学改进协会和开放科学中心 (COS) 的使命是促进文化变革,走向严谨、透明和可复制
      • COS 的文化变革策略基于罗杰斯的扩散模型。该研究描述了新技术如何首先被创新者和早期采用者使用,然后获得主流认可
    • 变化的证据
      • 直接或间接提高可复制性或评估可复制性的行为包括增加样本量、预先注册研究、提高严谨性和透明度、共享材料和原始数据、进行复制以及增强错误检测和纠正
      • 过去十年出现了各种干预措施和解决方案,包括支持预先注册和共享的工具,例如开放科学框架 (OSF, Soderberg 2018) 和 AsPredicted,以及促进错误检测和纠正的工具
      • 促进新规范的基层社区,例如心理科学改进协会、开放科学社区(Armeni et al., 2020)和可重复性网络(Munafò et al., 2020)
      • 大规模合作以增加样本量和复制努力
      • 出版商、资助者和机构的政策变化,鼓励或要求更严格、更透明和共享
      • 已有的调查研究表明,心理学家和其他社会行为研究人员承认参与了可能影响可重复性的可疑研究实践 (John et al., 2012)
      • 9%至43%的研究人员承认未能报告所有研究结果,25%至62%的研究人员承认选择性地报告了“有效的”研究(Nosek et al., 2022)
      • Christensen等(2019)要求心理学家回顾性地报告他们首次预注册研究或在线发布数据或代码的时间,他们观察到2011年约有20%的参与者共享了数据或代码,约有8%的参与者预先注册了研究,到2017年,这两个数字分别上升到51%和44%

贡献者

页面历史

撰写